10 research outputs found

    Corrección gramatical para euskera mediante una arquitectura neuronal seq2seq y ejemplos sintéticos

    Get PDF
    Sequence-to-sequence neural architectures are the state of the art for addressing the task of correcting grammatical errors. However, large training datasets are required for this task. This paper studies the use of sequence-to-sequence neural models for the correction of grammatical errors in Basque. As there is no training data for this language, we have developed a rule-based method to generate grammatically incorrect sentences from a collection of correct sentences extracted from a corpus of 500,000 news in Basque. We have built different training datasets according to different strategies to combine the synthetic examples. From these datasets different models based on the Transformer architecture have been trained and evaluated according to accuracy, recall and F0.5 score. The results obtained with the best model reach 0.87 of F0.5 score.Las arquitecturas neuronales secuencia a secuencia constituyen el estado del arte para abordar la tarea de corrección de errores gramaticales. Sin embargo, su entrenamiento requiere de grandes conjuntos de datos. Este trabajo estudia el uso de modelos neuronales secuencia a secuencia para la corrección de errores gramaticales en euskera. Al no existir datos de entrenamiento para este idioma, hemos desarrollado un método basado en reglas para generar de forma sintética oraciones gramaticalmente incorrectas a partir de una colección de oraciones correctas extraídas de un corpus de 500.000 noticias en euskera. Hemos construido diferentes conjuntos de datos de entrenamiento de acuerdo a distintas estrategias para combinar los ejemplos sintéticos. A partir de estos conjuntos de datos hemos entrenado sendos modelos basados en la arquitectura Transformer que hemos evaluado y comparado de acuerdo a las métricas de precisión, cobertura y F0.5. Los resultados obtenidos con el mejor modelo alcanzan un F0.5 de 0.87

    Euskarazko anafora pronominala: ikuspuntu konputazionala eta corpus baten garapena

    Get PDF

    Euskarazko anafora pronominala: ikuspuntu konputazionala eta corpus baten garapena

    Get PDF

    LINGUATEC: Development of linguistic resources to advance the digitisation of the languages of the Pyrenees

    Get PDF
    El objetivo del proyecto es desarrollar, probar y difundir nuevos recursos, nuevas herramientas y aplicaciones lingüísticas innovadoras para mejorar el nivel de digitalización del aragonés, vasco y occitano. Resultados esperados: (1) Hoja de ruta para la digitalización del aragonés, (2) Nuevos recursos lingüísticos, (3) Herramientas lingüísticas desarrolladas (síntesis de voz occitana, aragonesa y vasca del País Vasco francés, detector de texto occitano y variantes del occitano, mejora de la traducción automática del francés al occitano, del castellano vasco, del castellano al aragonés, (4) Aplicaciones innovadoras desarrolladas en los idiomas de los Pirineos.The goal of the project is to develop, test and disseminate new innovative linguistic resources, tools and solutions for a better digitalization level of the Aragonian, Basque and Occitan languages. As a result, we will obtain, among others, (1) a road map of Aragonian Digitalization, (2) new monolingual and bilingual lexicons and morphosyntactic and syntactic analysers for Occitan, (3) a Northern Basque speech recognition system, and several linguistic tools as well as (4) new innovative solutions for Aragonian, Basque and Occitan.La investigación llevada a cabo en este proyecto se lleva a cabo como parte del proyecto “LINGUATEC: Desarrollo de la cooperación transfronteriza y transferencia de conocimiento en tecnologías de la lengua” (POCTEFA EFA227/16, FEDER), financiado por el Ministerio de Economía y Competitividad y el Fondo Europeo de Desarrollo Regional (FEDER)

    Pronominal anaphora in Basque: annotation of a real corpus

    Get PDF
    En este artículo se describe el proceso de etiquetado manual de la anáfora pronominal en el corpus Eus3LB, corpus de 54.000 palabras de texto escrito en euskera etiquetado a nivel sintáctico y que servirá de base para posteriores tratamientos computacionales. Presentamos aquí el estudio lingüístico previo, los criterios de etiquetado establecidos y algunas conclusiones lingüísticas relevantes sobre las características de las relaciones entre la anáfora pronominal y su correspondiente antecedente.This paper describes the process followed in the annotation of pronominal anaphora in the Eus3LB corpus of Basque. Our aim is to use this annotation as the basis for later computational treatment of our language. We present the linguistic analysis carried out, the criteria defined for the tagging and some relevant linguistic conclusions about the features of the antecedents needed to link them correctly to their anaphoric elements

    Erreferentziakidetasun-sareen etiketatze-metodologia EPEC Corpusean tratamendu konputazionalari begira

    No full text
    Libro-homenaje editado por Mª José Ezeizabarrena y Ricardo Góme

    Erreferentziakidetasun-sareen etiketatze-metodologia EPEC Corpusean tratamendu konputazionalari begira

    No full text
    Libro-homenaje editado por Mª José Ezeizabarrena y Ricardo Góme

    Determinación de características en una aproximación basada en el aprendizaje automático para la resolución de anáforas pronominales en euskara

    No full text
    En este trabajo presentamos una primera aproximación basada en el aprendizaje automático para resolver la anáfora pronominal en euskara. Asimismo, determinamos las características más relevantes para esta tarea.In this paper we present the preliminaries for a machine learning approach to resolve the pronominal anaphora in Basque language. In this work we determine the appropriate features to be used in this task.This work was supported by KNOW2 (TIN2009-14715-C04-01) and Berbatek (IE09-262) projects

    Digital Language Diversity Project Survey Data

    No full text
    This dataset contains the original responses to a questionaire run in 2016 within the DLDP project about the use and usability of 4 European regional and minority languages on digital media and devices: namely Basque, Breton, Karelian and Sardinian (See http://www.dldp.eu/content/survey-digital-fitness). The majority of questions were closed questions where respondents had to tick a box, occasionally multiple choice was allowed. A few questions required free text provision. The questionnaire was designed using 'Google Forms' and was run on the same platform in the summer 2016. The results of the survey are brielfly presented in the DLDP reports available here: http://www.dldp.eu/content/reports-digital-language-diversity-europ

    Determinación de características en una aproximación basada en el aprendizaje automático para la resolución de anáforas pronominales en euskara

    No full text
    En este trabajo presentamos una primera aproximación basada en el aprendizaje automático para resolver la anáfora pronominal en euskara. Asimismo, determinamos las características más relevantes para esta tarea.In this paper we present the preliminaries for a machine learning approach to resolve the pronominal anaphora in Basque language. In this work we determine the appropriate features to be used in this task.This work was supported by KNOW2 (TIN2009-14715-C04-01) and Berbatek (IE09-262) projects
    corecore